机器学习算法必须能够有效地应对大量数据集。因此,他们必须在任何现代系统上进行良好的扩展,并能够利用独立于供应商的加速器的计算能力。在监督学习领域,支持向量机(SVM)被广泛使用。但是,即使是现代化和优化的实现,例如LIBSVM或ThunderSVM对于尖端硬件的大型非平凡的密集数据集也不能很好地扩展:大多数SVM实现基于顺序最小优化,这是一种优化的固有顺序算法。因此,它们不适合高度平行的GPU。此外,我们不知道支持不同供应商的CPU和GPU的性能便携式实现。我们已经开发了PLSSVM库来解决这两个问题。首先,我们将SVM的配方作为最小二乘问题。然后训练SVM沸腾以求解已知高度平行算法的线性方程系统。其次,我们提供了一个独立但高效的实现:PLSSVM使用不同的可互换后端 - openmp,cuda,opencl,sycl-支持来自多个GPU的NVIDIA,AMD或INTEL等各种供应商的现代硬件。 PLSSVM可以用作LIBSVM的倒入替换。与LIBSVM相比,与ThunderSVM相比,我们观察到高达10的CPU和GPU的加速度。我们的实施量表在多核CPU上缩放,并在多达256个CPU线程和多个GPU上平行加速为74.7,在四个GPU上的并行加速为3.71。代码,实用程序脚本和文档都可以在GitHub上获得:https://github.com/sc-sgs/plssvm。
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
异常检测描述了发现与正常值空间不同的异常状态,实例或数据点的方法。工业流程是一个领域,需要在其中找到质量增强异常数据实例的预期模型。但是,主要的挑战是在这种环境中没有标签。本文有助于以数据为中心的工业生产中人工智能的方式。借助来自汽车组件的增材制造的用例,我们提出了基于深度学习的图像处理管道。我们将域随机化和合成数据的概念整合在循环中,这显示了深度学习进展及其在现实世界中的工业生产过程中的桥接结果。
translated by 谷歌翻译
临床表型可以从患者记录中自动提取临床状况,这可能对全球医生和诊所有益。但是,当前的最新模型主要适用于用英语编写的临床笔记。因此,我们研究了跨语化知识转移策略,以针对不使用英语并且有少量可用数据的诊所执行此任务。我们评估了希腊和西班牙诊所的这些策略,利用来自心脏病学,肿瘤学和ICU等不同临床领域的临床笔记。我们的结果揭示了两种策略,这些策略优于最先进的方法:基于翻译的方法,结合了域的编码器和跨语性编码器以及适配器。我们发现,这些策略在对稀有表型进行分类方面表现特别好,我们建议在哪种情况下更喜欢哪种方法。我们的结果表明,使用多语言数据总体可以改善临床表型模型,并可以补偿数据稀疏性。
translated by 谷歌翻译
在线学习和决策中的一个核心问题 - 从土匪到强化学习 - 是要了解哪种建模假设会导致样本有效的学习保证。我们考虑了一个普遍的对抗性决策框架,该框架涵盖了(结构化的)匪徒问题,这些问题与对抗性动力学有关。我们的主要结果是通过新的上限和下限显示决策估计系数,这是Foster等人引入的复杂度度量。在与我们环境的随机对应物中,对于对抗性决策而言是必要和足够的遗憾。但是,与随机设置相比,必须将决策估计系数应用于所考虑的模型类(或假设)的凸壳。这就确定了容纳对抗奖励或动态的价格受凸层化模型类的行为的约束,并恢复了许多现有结果 - 既积极又负面。在获得这些保证的途径中,我们提供了新的结构结果,将决策估计系数与其他众所周知的复杂性度量的变体联系起来,包括Russo和Van Roy的信息比以及Lattimore和Gy的探索目标\“ {o} rgy。
translated by 谷歌翻译
我们介绍了自回归文本到图像(Parti)模型的途径,该模型生成高保真的影像图像并支持涉及复杂组成和世界知识的内容丰富的合成。 Parti将文本对图像生成视为类似于机器翻译的序列到序列建模问题,图像令牌的序列是目标输出,而不是其他语言的文本令牌。这种策略自然可以利用大型语言模型的先前工作,通过扩展数据和模型尺寸,能力和性能的持续进展。我们的方法很简单:首先,Parti使用基于变压器的图像令牌VIT-VQGAN将图像编码为离散令牌的序列。其次,我们通过将编码器二次变压器模型缩放到20B参数来实现一致的质量改进,其新的最新零弹药FID得分为7.23,而MS-Coco的FIDED得分为3.22。我们对本地化叙述以及党的详细分析(P2),这是1600多个英语提示的新的整体基准,证明了Parti在各种类别和难度方面的有效性。我们还探索并突出了我们的模型的局限性,以定义和体现关注重点领域以进一步改进。有关高分辨率图像,请参见https://parti.research.google/。
translated by 谷歌翻译
本文介绍了DGNET,这是一个新颖的深层框架,可利用对象梯度监督的伪装对象检测(COD)。它将任务分为两个连接的分支,即上下文和纹理编码器。必不可少的连接是梯度诱导的过渡,代表上下文和纹理特征之间的软组。从简单但高效的框架中受益,DGNET以很大的利润优于现有的最新COD模型。值得注意的是,我们的高效版本DGNET-S实时运行(80 fps),并获得与尖端模型JCSOD-CVPR $ _ {21} $相当的结果,只有6.82%的参数。应用程序结果还表明,所提出的DGNET在息肉分割,缺陷检测和透明对象分割任务中表现良好。代码将在https://github.com/gewelsji/dgnet上提供。
translated by 谷歌翻译
我们提出了一种基于神经网络(NN)的算法,用于用于窄带物理随机访问通道(NB-iot)的窄带物理随机通道(NBRACH)的设备检测和到达时间(TOA)和载体频率偏移(CFO)估计(nprach) 。引入的NN体系结构利用了剩余的卷积网络以及对5G新无线电(5G NR)规格的序言结构的了解。第三代合作伙伴项目(3GPP)城市微电池(UMI)频道模型的基准测试,其随机用户与最先进的基线相对于最先进的基线表明,该提出的方法可在虚假的负率(FNR)中最多8 dB增益(FNR)以及假阳性率(FPR)和TOA和CFO估计精度的显着增长。此外,我们的模拟表明,所提出的算法可以在广泛的通道条件,CFO和传输概率上获得收益。引入的同步方法在基站(BS)运行,因此在用户设备上没有引入其他复杂性。它可能通过降低序列长度或发射功率来延长电池寿命。我们的代码可在以下网址提供:https://github.com/nvlabs/nprach_synch/。
translated by 谷歌翻译
在本文中,我们分享了我们努力建立能够翻译一千多种语言的实用机器翻译(MT)系统的发现。我们在三个研究领域中描述了结果:(i)通过利用半监督预训练的语言识别和开发数据驱动的过滤技术来构建1500多种语言的清洁,网挖数据集; (ii)通过利用大规模的多语言模型来开发用于服务不足的语言的实用MT模型,该模型训练了有监督的并行数据,以使用100多种高资源语言和单语言数据集,以增加1000多种语言; (iii)研究这些语言的评估指标的局限性,并对我们MT模型的输出进行定性分析,突出显示了这些类型模型的几种频繁误差模式。我们希望我们的工作为旨在为当前研究的语言构建MT系统的从业者提供有用的见解,并突出显示可以补充Data-Sparse设置中大量多语言模型的弱点的研究方向。
translated by 谷歌翻译
Context-aware decision support in the operating room can foster surgical safety and efficiency by leveraging real-time feedback from surgical workflow analysis. Most existing works recognize surgical activities at a coarse-grained level, such as phases, steps or events, leaving out fine-grained interaction details about the surgical activity; yet those are needed for more helpful AI assistance in the operating room. Recognizing surgical actions as triplets of <instrument, verb, target> combination delivers comprehensive details about the activities taking place in surgical videos. This paper presents CholecTriplet2021: an endoscopic vision challenge organized at MICCAI 2021 for the recognition of surgical action triplets in laparoscopic videos. The challenge granted private access to the large-scale CholecT50 dataset, which is annotated with action triplet information. In this paper, we present the challenge setup and assessment of the state-of-the-art deep learning methods proposed by the participants during the challenge. A total of 4 baseline methods from the challenge organizers and 19 new deep learning algorithms by competing teams are presented to recognize surgical action triplets directly from surgical videos, achieving mean average precision (mAP) ranging from 4.2% to 38.1%. This study also analyzes the significance of the results obtained by the presented approaches, performs a thorough methodological comparison between them, in-depth result analysis, and proposes a novel ensemble method for enhanced recognition. Our analysis shows that surgical workflow analysis is not yet solved, and also highlights interesting directions for future research on fine-grained surgical activity recognition which is of utmost importance for the development of AI in surgery.
translated by 谷歌翻译